title: "Evaluating Large Language Models Trained on Code" date: 2025-01-01T14:47:39+08:00 draft: true draft: false description: "一种评估大模型生成代码能力的方法" categories: ["论文笔记"] tags: ["代码生成",]

基本信息


研究背景 (Background)

OpenAI在GPT3发布的时候,就已经可以通过文档(docstrings)生成python代码了。本篇文章假定有一个大规模的语言模型,Codex,可以生成代码,作者希望通过这篇文章来评估Codex的性能。


研究问题 (Research Questions)

本文旨在设定一个评估指标和方法来对模型(假定Codex)生成Python代码的能力进行评估。


方法与模型 (Methods & Models)

  1. 研究方法:
    简述本文采用的方法或提出的模型。
  2. 实验设计:
    描述实验设计的基本要点,如数据集、实验设置等。

核心贡献 (Key Contributions)

总结本文的主要贡献点: 1.
2.
3.


实验结果 (Results)

概述实验的关键结果和作者的主要发现。


参考文献 (References)

列举一些重要的参考文献

备注 (Notes)

  1. 论文提到一个现象(Introduction),12B的Codex可以解决28.8%的问题,而300M的Codex只能解决13.2的问题。这是为什么?

优点与创新点 (Strengths)

列出本文的优点和创新点: 1.
2.


局限性与不足 (Limitations)

列出本文的局限性和不足: 1.
2.


我的思考 (Personal Thoughts)

  1. 本文与我研究的相关性:
  2. 是否有可以改进的地方:
  3. 后续可能的研究方向: